데이터분석 준전문가 랜덤

데이터 이해


1. 다음 중 빅데이터 활용을 위한 3요소에 대한 내용으로 틀린 것은?
  •  데이터 : 모든 것의 데이터화
  •  기술 : 진화하는 알고리즘 , 인공지능
  •  인력 : 데이터 사이언티스트, 알고리즈미스트
  •  프로세스 : 이전과는 다른 데이터 관리를 위한 작업절차

2. 별도로 분석 조직이 없으며, 해당 업무부서에서 직접 분석을 수행하는 구조는 무엇인가?
  •  집중 구조
  •  기능 중심 구조
  •  분산 구조
  •  DSCoE

3. 인터넷으로 연결된 기계마다 통신 장치를 갖추고 있는 환경에서 사람 또는 기계끼리 자동으로 통신하는 기술로써 사물과 사람, 사물과 사물 간의 정보를 상호 소통하는 방식을 무엇이라 하는가?

4. 암묵지와 형식지 상호작용의 과정 중 개인의 내재된 경험을 객관적인 데이터로 변환하여 문서나 매체에 저장.가공.분석하는 과정을 무엇이라고 하는가?
  •  표출화
  •  연결화
  •  내재화
  •  공통화

5. 다음 내용은 빅데이터가 만들어 내는 본질적인 변화에 대한 설명이다. (A)와 (B)에 들어갈 내용이 옳게 연결된 것은?
"(A)는 어떤 현상에 대하여 현상을 발생시킨 원인과 그 결과 사이의 관계를 말하고, (B)는 어떤 두 현상이 관계가 있음을 말하지만 어느 쪽이 원인인지 알 수 없다."
  •  A: 선형 관계, B: 비선형 관계
  •  A: 비선형 관계, B: 선형 관계
  •  A: 인과 관계, B: 상관 관계
  •  A: 상관 관계, B: 인과 관계

6. 다음 중 데이터의 가공 및 처리와 데이터 간 상관 관계 속에서 의미가 도출된 것은?
  •  정보
  •  지식
  •  지혜
  •  기호

7. 이미지, 로그, 영상, 텍스트 등의 데이터 형태로 알맞은 것은?
  •  Structured data
  •  Qualitative data
  •  Unstructured data
  •  Semi-Structured data

8. 다음에서 설명하는 기업 내부의 데이터베이스 솔루션으로 옳은 것은?
[기업의 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로 구매, 생산, 재고, 유통, 고객 데이터로 구성되어 있다.]
  •  ERP
  •  SCM
  •  ITS
  •  CRM

9. 빅데이터가 가치 창출 측면에서 기업, 정부, 개인에 미치는 여향으로 옳지 않은 것은?
  •  기업은 빅데이터를 활용하여 시장 변동을 예측해 비즈니스 모델을 혁신하고 신사업을 발굴할 수 있다.
  •  정부는 기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정할 수 있다.
  •  운용 효율성이 증가하면 산업 전체의 생산성이 향상, 국가 전체로서는 GDP가 올라가는 효과가 있다.
  •  개인은 아직 데이터를 활용할 수 없다.

10. 다음 중 빅데이터 가치 패러다임의 변화 단계를 옳게 나열한 것은?
  •  Agency → Digitalization → Connection
  •  Digitalization → Connection → Agency
  •  Connection → Digitalization → Agency
  •  Digitalization → Agency → Connection

데이터분석 기획


11. 데이터 분석 기획 유형에 관한 설명으로 옳지 않은 것은?
  •  분석 대상을 알고, 분석 방식도 아는 경우 개선을 통한 최적화 유형을 적용한다.
  •  최적화, 솔루션, 관찰, 발견의 4가지 분석 주제 유형으로 이루어져 있다.
  •  분석 대상을 알고 분석 방식을 모르는 경우 솔루션을 찾아내는 방식을 적용한다.
  •  발견은 분석대상을 모르고, 분석 방식도 모르는 경우 적용한다.

12. 빅데이터 분석 방법론의 분석 기획 단계에서 수행하는 주요 Task로 옳은 것은
  •  비즈니스의 이해 및 범위 설정
  •  필요 데이터 정의
  •  모델 적용 및 운영 방안 수립
  •  모델 발전 계획 수립

13. 하향식 접근 방식의 수행 내용으로 옳지 않은 것은?
  •  문제 탐색
  •  프로토 타이핑
  •  문제 정의
  •  타당성 검토

14. 다음 분석과제의 우선순위 선정 관련 설명 중 틀린 것은?
  •  우선순위를 시급성에 둔다면 III - IV - II 순서로 진행한다.
  •  우선순위를 난이도에 둔다면 III - I - II 순서로 진행한다.
  •  시급성과 난이도 둘 다 높은 것이 우선순위가 가장 높다.
  •  시급성의 판단 기준은 전략적 중요도가 핵심이다.

15. 빅데이터 분석 절차는 빅데이터 분석 방법론을 토대로 5단계 절차로 수행된다. 절차로 옳은 것은?
  •  분석 기획 → 데이터 준비 → 시스템 구현 → 데이터 분석 → 평가 및 전개
  •  분석 기획 → 데이터 분석 → 시스템 구현 → 데이터 준비 → 평가 및 전개
  •  데이터 준비 → 분석 기획 → 데이터 분석 → 시스템 구현 → 평가 및 전개
  •  분석 기획 → 데이터 준비 → 데이터 분석 → 시스템 구현 → 평가 및 전개

16. 분석 활용 시나리오에 대한 설명으로 틀린 것은?
  •  데이터 확보가 가장 중요하다.
  •  데이터 분석을 특정 목적에 맞게 활용하는 방법 또는 계획을 의미한다.
  •  분석 목표와 분석 방법을 설명하고 예상 결과를 제시하는 문서이다.
  •  프로젝트 진행 중에도 변경될 수 있다.

17. 다음 중 분석 과제의 우선 순위 선정 시 난이도와 시급성을 모두 고려 하였을 때, 우선적으로 추진해야 하는 분석 과제는 무엇인가
  •  난이도 - 어려움 , 시급성 - 미래
  •  난이도 - 쉬움 , 시급성 - 미래
  •  난이도 - 어려움 , 시급성 - 현재
  •  난이도 - 쉬움 , 시급성 - 현재

18. 빅데이터 분석 방법론에서 분석 기획 단계의 Task로 적절하지 않은 것은?
  •  비즈니스 이해 및 범위 설정
  •  프로젝트 정의 및 계획 수립
  •  프로젝트 위험 계획 수립
  •  필요 데이터 정의

19. 포트폴리오 사분면 분석을 통한 과제 우선순위를 선정하는 기법 중 분석 과제의 적용 우선 순위를 '시급성'에 둔다면 결정해야 할 우선 순위는?
  •  III - IV - II
  •  I - II - III
  •  II - IV - I
  •  III - I - II

20. 분석 기획에 대한 설명으로 적절하지 않은 것은 무엇인가?
  •  해당 문제 영역에 대한 전문성 역량 및 통계학적 지식을 활용한 분석 역량과 분석 도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 한다.
  •  성공적인 분석을 하기 전 중요 사전 작업이다.
  •  상향식 분석은 분석 기획 전 탐색적 데이터 분석 수행을 한다.
  •  실제 분석을 수행에 앞서 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업이다.

데이터분석


21. Credit 데이터는 400명의 신용카드 고객에 대한 신용카드와 관련된 변수들이 포함되어 있다. 아래 변수 간의 산점도와 피어슨 상관계수를 나타내고 있다. 그림에 대한 설명 중 가장 부적절 한 것은?
  •  가장 상관관계가 높은 두 변수는 Limit와 Balance이다.
  •  모든 상관관계가 양의 상관관계를 보인다.
  •  Balance와 가장 상관관계가 높은 변수는 Income이다.
  •  Age와 Balance는 매우 낮은 상관관계를 보인다.

22. 표본 추출시 발생하는 오차에 관한 설명 중 잘못된 설명은?
  •  표본 오차(Sampling error)는 모집단의 일부인 표본에서 얻은 자료를 통해 모집단 전체의 특성을 추론함으로써 생기는 오차를 의미한다
  •  비표본 오차(non-sampling error)는 표본 크기가 증가함에 따라 증가한다.
  •  표본 편의(Sampling bias)는 표본 추출방법에서 기인하는 오차를 의미하고, 표본 추출 방법에 의해 최소화하거나 없앨 수 있다.
  •  표본 오차는 표본의 크기를 증가시키고, 표본 선택 방법을 엄격히 하여 줄일 수 있다.

23. 다음 주성분 분석 결과에서 주성분 1개를 사용했을 때 분산을 구하시오.

24. 계층적 군집 방법으로 가장 알맞지 않은 것은?
  •  단일 연결법
  •  완전 연결법
  •  평균 연결법
  •  편차 연결법

25. 다음 내용의 빈칸에 들어갈 알맞은 용어는?
  •  확률(Probability)
  •  오즈비(odds ratio)
  •  오즈(odds)
  •  시그모이드(Sigmoid)

26. 다음 연관 규칙에 대한 설명 중 잘못된 것은?
  •  비목적성 분석 기법으로 계산이 간편하다
  •  대표적인 알고리즘으로 Aprior가 있다.
  •  조건 반응으로 표현되는 연관분석의 결과를 이해하기 쉽다.
  •  분석 품목 수가 증가해도 계산은 복잡해지지 않는다.

27. 로지스틱 회귀에 대한 특징으로 적절한 것은?
  •  모형 검정에는 F검정이 사용된다.
  •  종속변수(=반응변수)가 범주형인 경우 적용되는 회귀분석 모형이다.
  •  softmax 함수를 사용하여 종속 변수를 전체 실수 범위로 확장하여 분석한다.
  •  모형 탐색 방법에는 최소 자승법(최소 제곱법)이 있다.

28. 생물학적 진화과정을 모방하여 최적화 및 검색 문제를 해결하는데 사용되는 계산 알고리즘으로 다양한 해를 탐색하고 선택,교차,변이와 같은 유전 연산을 통해 최적의 해를 찾아내는데 효과적인 알고리즘은?

29. 신경망 모형에서 입력 받은 데이터를 다음 층(Layer)으로 출력하는 형태를 결정하는 함수를 무엇이라고 하는가?
  •  활성화 함수(activation function)
  •  로짓 함수
  •  오즈비 함수
  •  매핑 함수

30. 다음의 수식에 해당하는 데이터 간의 거리 계산 방식은 무엇인가?
  •  유클리드 거리
  •  맨해튼 거리
  •  민코프스키 거리
  •  마할라노비스 거리

31. 다음 시계열 데이터에 대한 설명 중 가장 옳지 않은 것은?
  •  시계열 데이터의 모델링은 다른 분석 모형과 같이 탐색 목적과 예측 목적으로 나눌 수 있다.
  •  짧은 기간 동안의 주기적인 패턴을 계절변동이라 한다.
  •  잡음은 무작위적인 변동이지만 일반적으로 원인은 알려져 있다.
  •  시계열 분석의 주 목적은 외부 인자와 관련해 계절적인 패턴 추세와 같은 요소를 설명할 수 있는 모델을 결정하는 것이다.

32. 코드 실행 결과에 대한 설명으로 적절한 것은?
  •  회귀모형은 유의수준 5%하에서 통계적으로 유의미하다.
  •  모든 회귀계수들이 유의미하다.
  •  설명력은 7.165 이다.
  •  데이터의 개수는 41개 이다.

33. 다음 회귀분석의 결과 해석으로 틀린 것은?
  •  결정계수는 0.9588이다.
  •  5% 유의수준에서 모형은 통계적으로 유의미 하다.
  •  Time이 1단 증가하면 Weight가 평균적으로 8.8 증가한다.
  •  추정된 회귀식은 weight = 24.4654 + 7.9879 * Time이다.

34. 다음 설명 중 연관 규칙의 단점이 아닌 것은?
  •  분석 품목 수가 증가하면 분석 계산이 기하급수적으로 증가한다.
  •  너무 세분화된 품목을 가지고 연관 규칙을 찾으려면 의미 없는 분석 결과가 도출된다.
  •  품목 간에 구체적으로 어떤 영향을 주는지 해석하기 어렵다.
  •  상대적 거래량이 적으면 규칙 발견 시 제외되기 쉽다.

35. 어떤 슈퍼마켓 고객 6명의 장바구니 별 구입 품목이 다음과 같다고 한다면, 연관 규칙(콜라→맥주)의 지지도는?
  •  0.6
  •  0.4
  •  0.5
  •  0.3

36. 다음 중 회귀분석의 결정 계수에 관한 설명으로 적절하지 않은 것은 무엇인가?
  •  결정 계수는 회귀제곱합(SSR) / 총제곱합(SST) 로 구할 수 있다.
  •  종속변수와 독립변수 사이의 표본 상관계수와 값이 같다.
  •  결정계수가 커질수록 회귀방정식의 설명력이 높다고 할 수 있다.
  •  일반적으로 결정 계수는 0~1의 값을 갖는다.

37. 다음이 설명하는 시계열 모형은 무엇인가?
"자기 자신의 과거자료로 설명하는 모형으로 백색잡음의 현재값과 자기자신의 과거값의 가중합으로 선형성을 표현하는 정상시계열 모형이다."
  •  MA 모형
  •  AR 모형
  •  의사결정나무
  •  인공신경망

38. 변수 가공에 대한 설명으로 적절하지 않은 것은?
  •  구간화의 개수가 감소하면 정확도는 높아지지만 속도가 느려진다.
  •  log, sqrt를 취하면 큰 값을 작게 만들 수 있다 - 오른쪽 꼬리 긴 분포에 사용
  •  제곱, exp를 취하면 작은 값을 크게 만들 수 있다 - 왼쪽 꼬리 긴 분포에 사용
  •  MinMax Normalization을 하면 값이 0~1 사이의 범위로 변경된다.

39. 아래 오분류표에서 민감도(Sensitivity)를 구하는 식은 무엇인가?

40. 웹 데이터의 수집을 위해 웹페이지의 구조를 분석하여 데이터를 자동으로 수집하는 방법을 무엇이라고 하는가?
  •  FTP
  •  웹 크롤링(Web Crawling)
  •  Streaming
  •  Open API

41. SOM에 대한 설명으로 옳지 않은 것은?
  •  SOM은 비지도 학습이다.
  •  SOM은 차원 축소와 군집화를 동시에 수행하는 기법이다.
  •  입력층과 출력층이 부분연결 되어 있다.
  •  출력 뉴런들은 승자 뉴런이 되기 위해 경쟁하고 오직 승자만이 학습한다.

42. 다음이 설명하는 앙상블 모형의 종류는 무엇인가?
"배깅(bagging)에 랜덤 과정을 추가한 방법으로 노드 내 데이터를 자식 노드로 나누는 기준을 정할 때 모든 예측 변수에서 최적의 분할을 선택하는 대신, 설명변수의 일부분만을 고려함으로 성능을 높이는 방법을 사용한다."
  •  랜덤 포레스트
  •  로지스틱 회귀 분석
  •  K-NN
  •  붓스트랩

43. 다음 중 회귀분석에서 모형의 설명력을 확인하기 위해 사용되는 결정 계수의 특성으로 옳지 않은 것은?
  •  결정 계수는 0에서 1의 값을 가진다.
  •  높은 값을 가질수록 측정된 회귀식의 설명력이 높다.
  •  총 변동에서 추정된 회귀식에 의해 설명되는 변동의 비율로 나타낼 수 있다.
  •  종속 변수와 독립 변수 사이의 표본 상관 계수 값과 같다.

44. 다음 중 오분류표의 평가지표 중 True로 예측한 관측치 중 실제 True인 지표를 무엇이라 하는가?
  •  Precision
  •  Accuracy
  •  F1
  •  Sensitivity

45. 차원 축소 기법 중, 객체들 사이의 유사성, 비유사성을 2차원 혹은 3차원 공간상에 점으로 표현하여 개체 사이의 군집을 시각적으로 표현하는 기법은 무엇인가?

46. 다음 두 좌표(A,B) 간의 맨해튼 거리를 구하시오.
    A     /    B
키       : 175      180
몸무게 :  70        65
  •  10
  •  50
  •  √10
  •  √50

47. 의사결정 나무 분리 기준인 엔트로피 지수의 계산식은?
  •  엔트로피 지수(Entropy index)
     
  •  엔트로피 지수(Entropy index)
     
  •  엔트로피 지수(Entropy index)
     
  •  엔트로피 지수(Entropy index)
     

48. 다음 오분류표를 사용하여 F1 Score를 구하시오.

49. CART에서 쓰이는 불순도 측정 지표로 데이터의 통계적 분산 정도를 정량화해서 표현한 값은 무엇인가

50. 다음이 설명하는 이산형 확률 분포는 무엇인가?
"단위 시간이나 단위 공간에서 어떤 사건이 몇 번 발생할 것인지 표현하는 분포로 특정 기간 동안 사건 발생의 확률을 구할 때 사용된다"

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
채점하기
hide
reset
타이머

모든 문제들의 저작권은 원저작권자에게 있습니다. 본 사이트는 웹상에 공개되어 있는 문제만 모아서 보여드립니다.
저작권 안내   데이터 보호 안내   제휴 문의

copyright 2025 뉴비티::새로운 CBT 시스템 - newbt.kr